Aprendizaje offline libre de pesimismo en juegos de suma general mediante regularización KL Aprendizaje offline libre de pesimismo en juegos de suma general con regularización KL. Técnica innovadora para optimizar políticas multiagente sin sesgos. 2026-05-04 · 3 min